C’est du PROPRE !
2022-02-04 Présentation de la démarche de mise en place d’un processus de publications reproductibles
Chapitre 1. Introduction et motivations du document
Suite à la réponse de la DREAL Pays de la Loire à un appel à projet du Commissariat Général au Développement Durable (CGDD) fin 2015 sur le thème de la connaissance stratégique des territoires, un centre de service de la donnée a été constitué en 2018.
Le périmètre de ses missions a été défini dans sa feuille de route dans les termes suivants :
Structurer les données pour les rendre exploitables plus facilement
Sécuriser les données et les qualifier
Trouver, collecter et stocker de nouvelles données qui répondent aux besoins
Produire rapidement des livrables modernes à des fins de publication pour la communication (cartographies, fiches, datavisualisation…)
A cet effet, le centre de services de la donnée s’est structuré autour d’un laboratoire de la donnée : le “DREAL datalab”. Il doit proposer des accès facilités aux données brutes, agrégées et analysées produites et diffusées conjointement par la DSIT (division système d’information sur les territoires) et la DOES (division observation, études et statistiques) du service connaissance des territoires et évaluation (SCTE) de la DREAL Pays de la Loire.
Sa capacité à assurer ces objectifs s’articule autour de trois axes : l’organisation, les méthodes et l’outillage.
1.1 L’organisation du datalab
A sa genèse, le centre de service de la données s’est équipé d’un comité de suivi d’une demi-douzaine de personnes. La participation à ce comité est basée sur le volontariat et compte des membres des deux divisions DSIT (division système d’information sur les territoires) et DOES (division observation, études et statistiques). Les réunions sont animées par les deux chefs de division et se font tous les deux mois environ. Le comité de suivi à pour rôle d’évaluer pour chaque projet adressé au centre de service sa valeur et sa faisabilité. Il analyse et quantifie la charge de travail et en propose une répartition en fonction des disponibilités et compétences des ressources humaines de la douzaine de personnes que compte le datalab. Il peut mobiliser des profils tel que :
superviseur de données,
délegués à la protection des données,
administrateurs de données,
ingénieurs de la donnée,
scientifiques de la donnée et
chargés d’études en datavisualisation.
Le comité de suivi tient à jour un fichier de suivi des développements terminés, en cours et à venir.
Un autre de ses prérogatives est de s’assurer du bon fonctionnement de ses outils de faire éventuellement remonter des besoins en terme d’outils et d’infrastructure.
1.2 Des méthodes modernes de développement
Afin de favoriser la réussite des projets soutenus par le centre de service de la donnée, des méthodes de travail de type “Agile” et de Design Thinking (ou “conception créative”) ont été adoptées.
Leurs principes permettent, grâce à de petites équipes, d’avoir des résultats tangibles très rapidement qui soient centrés sur le besoin client et qui prennent en compte l’expérience usager.
Le Design Thinking est une méthode de gestion de l’innovation qui repose sur 5 étapes :
la compréhension du besoin : dans une posture d’écoute empathique, cette étape consiste à s’enquérir auprès des utilisateurs de ce qu’ils pensent, ressentent et disent afin d’obtenir une expression de besoin.
la définition du problème : cette étape borne le problème en un cadre et un référentiel dans lequel on espère susciter inspiration et prise de décision.
la solution : lors de cette étape, des idées sont produites grâce à des techniques de remue-méninges par exemple.
le prototypage de la solution : c’est l’étape d’incarnation et d’exploration des phases précédentes.
le test de la solution : c’est l’étape qui boucle avec les utilisateurs et permet de si besoin affiner la définition du problème.
Le Design Thinking, tout comme la méthode Agile, mettent l’accent sur la valeur et l’utilité que retirent les utilisateurs du “produit”. C’est en faisant qu’on apprend et l’expérimentation est la clé.
La méthode agile, qui s’applique souvent au développement logiciel, repose sur des itérations de développement rapides appelés “sprint” (de l’ordre de la quinze de jours à un mois) suivies de phases d’évaluation et de validation. Le produit attendu, souvent complexe, est d’abord découpé en petites unités fonctionnelles certes incomplètes au regard du produit fini mais plus faciles à appréhender pour un court cycle de développement et un retour utilisateur rapide (cf 1.1). Avec la méthode Agile, l’accent est mis sur la collaboration entre l’équipe de développement et les utilisateurs du produit.
Les phases d’évaluation et de validation permettent de s’assurer de la conformité des développements et de faire, si besoin, marche arrière sans risques si mal implémenté, ou de prendre une direction différente de celle initialement prévue. Les échecs comme les succès consolident ainsi l’intelligence collective des acteurs du projet. Ces approches autorisent aussi la sérendipité, des implémentations inattendues peuvent trouver leur public et devenir des caractéristiques du produit en cours de route.
Ces méthodes, parce qu’elles sont incrémentales, évitent l’effet tunnel d’un projet si gros qu’il aboutit nulle part notamment grâce à des phases de développement courtes suivies de phases indispensables de retours d’expérience. Les projets sont cadencés et rythmés, les besoins catégorisés et surtout priorisés, les utilisateurs finaux sont très régulièrement consultés et impliqués, pour ne pas dire responsabilisés (cf 1.2)
Ces mécanismes sont reconnus comme des leviers facilitateurs d’innovation car ils sont flexibles. On verra plus loin qu’ils ne sont pas non plus dénués de rigueur.
1.3 Des outils libres et open source
En sus d’une organisation et de méthodes, le datalab s’est équipé d’une forge logicielle fondée sur des outils libres et open source plutôt que de solutions logicielles propriétaires pour l’administration, le traitement, l’analyse et la diffusion des données. Les forges logicielles sont des environnements web conviviaux (par opposition à un terminal de commande) constituées de la machinerie nécessaire au développement, en équipe, de produits issus de la donnée ou de l’information. Cet outillage comprend souvent un outil de gestion de projet, un système de gestion de version de code, des ressources documentaires indexées, une intégration continue, un forum…(autant de termes et de concepts explicités ci-après) Si les forges logicielles s’appellent ainsi c’est parce que la similarité avec leurs homologues analogiques est toute trouvée : la révolution industrielle a profondément modifié l’Histoire en consommant de grandes quantité d’énergie dans des usines pour assembler des atomes, la transformation numérique opère un changement tout aussi mutagène et énergivore en assemblant des bits dans du silicium sous la direction de programmes imaginés dans des forges.
“In previous economic eras businesses created value by moving atoms. Now they create value by moving bits” Jeffrey Snover, Architect Azure chez Microsoft
Les outils libres, quant à eux, confèrent à leur utilisateurs la liberté et le pouvoir d’exécuter les programmes, d’en étudier leur fonctionnement, de l’améliorer et d’en redistribuer des copies. Etant eux-mêmes conçus dans des forges, ils disposent également de l’arsenal destiné à faciliter une co-construction efficace. Particularité de l’ère numérique et d’internet : nul besoin de se trouver physiquement en un même lieu pour élaborer ces outils. Naissent ainsi des communautés internationales de développeurs et d’utilisateurs qui constituent de véritables cellules de Recherche et Développement à l’échelle mondiale. La capacité à innover est alors parfois supérieure à celle d’une entreprise logicielle limitée par ses effectifs et une feuille de route dictée par le marché. Mais la transparence et le potentiel novateur du libre ont toutefois un prix, celle des compétences à pouvoir assembler de toutes pièces son outil de production. Une partie non-négligeable de ces savoirs-faire était déjà présente dans le DREAL datalab lors de l’orientation vers ce type de solution technique.
1.4 Une combinaison de facteurs propices à l’innovation
La mise en oeuvre concommittante des trois dimensions (organisation, méthodes, outils) au sein du datalab a pu être expérimentée via la réalisation de preuves de concept concrètes sur des projets ciblés (Pesticides et Siclop).
Les principaux résultats des expérimentations conduites à ce jour mettent en évidence :
l’automatisation et l’efficacité des process,
la fiabilisation et sécurisation des données et publications,
et l’autonomisation des agents impliqués.
En contrepartie, ces avantages ont exigé de la part des agents plus de polyvalence ainsi qu’une montée en compétence progressive et importante en ingénierie logicielle. Il s’agit bien d’un changement de paradigme pour l’administrateur ou l’analyste de données, un pivot vers plus de technicité a été opéré. Si tous les agents étaient déjà bien imprégnés d’une culture de la donnée, l’amorce entamée vers la culture du développement logiciel open source reste à achever.
Les derniers efforts à fournir dans cette démarche de transformation consisteront en effet à mettre en place un PROcessus de Publication REproductible (PROPRE). Cet acronyme, imaginé pour l’occasion, élicite le concept clef autour duquel se focalisera l’attention dans la mise en exploitation de la forge logicielle : la reproductibilité.